人工智慧寶可夢終於實現了! GoogleGemini 2.5 Pro 模型,剛剛成功通關了經典遊戲《寶可夢:藍色》GoogleCEO桑達爾·皮查伊(Sundar Pichai) 和DeepMind 負責人戴密斯·哈薩比斯(Demis Hassabis) 都發文祝賀,感謝了運行這個直播實驗的工程師Joel Z這事兒怎麼來的?首先得介紹下Joel Z,他是個30歲的軟體工程師,跟Google沒有直接關係。他搞這個實驗,是因為Gemini 2.5 Pro 出了個實驗版,大家就好奇它玩遊戲怎麼樣。於是,就有了這個"Gemini Plays Pokémon" 直播這個項目受到了另一個類似項目"ClaudePlaysPokemon" 的啟發。不過Joel Z 選擇了《寶可夢:藍》,一是因為Claude 已經在玩《紅》了,二是因為《藍色》是他自己玩的第一款寶可夢Gemini 是怎麼玩遊戲的?這才是重點。這個項目不是簡單地讓AI 瞎點,而是建構了一套自主決策系統:連接遊戲: 程式碼透過Socket 連接到mGBA 模擬器,能即時截圖、傳送按鍵指令(A、B、上、下等),還能讀取遊戲記憶體資料,例如玩家位置、寶可夢狀態、地圖資訊等AI 決策: 系統把帶網格線的遊戲截圖,加上從記憶體擷取的遊戲狀態資訊,發給Gemini 2.5 Pro。 Gemini 分析這些資訊,決定下一步操作專業「外援」: 有時候,Gemini 會把特定任務交給專門的「智能體」(Agent)來處理,以提高效率和可靠性執行與循環: 系統解析AI 的指令,轉換成具體的按鍵,傳送給模擬器,等遊戲畫面更新,然後重複這個過程它和Claude 玩寶可夢有啥不同?Joel Z 特別強調,不要把這看成是LLM 玩寶可夢的基準測試。兩者有很多不同:導航方式: Claude 有自動導航工具。 Gemini 沒有,它需要自主決定目的地,然後要麼自己規劃路線,要麼呼叫一個路徑規劃智能體(Pathfinder Agent,其實是另一個Gemini 實例)來尋找最優路徑。這個智能體能獨立思考,甚至用BFS(廣度優先搜尋)這類演算法來規劃資訊獲取: 兩者接收到的遊戲資訊和使用的工具不同思維模式: 每個模型思考方式不同,各有擅長所以,別直接比較誰“更強”,不如都看看,感受下不同AI 的“思路”。 Joel Z 也坦言,他覺得Claude 的框架有些不足,想看看給Gemini 配上合適的工具後能走多遠關於「作弊」的討論直播過程中,有觀眾注意到Joel Z 會進行一些干預,還有那張小地圖,這算不算「作弊」?開發者干預: Joel Z 解釋說,這不是作弊。項目還在開發階段,他的干預是為了改進Gemini 的通用決策和推理能力,而不是給具體關卡的提示(例如沒告訴它怎麼過月見山)。唯一接近“提示”的是,告知Gemini 需要和某個火箭隊員對話兩次才能拿到電梯鑰匙,這其實是原版遊戲的一個小“坑”,在後續版本修復了。他提到,Claude 項目在直播前也做過類似的幕後最佳化,Gemini 只是把這個開發過程公開了小地圖: 遊戲介面上方那張小地圖,是Gemini 探索區域的可視化。 Gemini 本身看不到圖像,只接收文字形式的地圖資訊。 Joel Z 認為,人類玩遊戲會自然形成心理地圖,目前的LLM 還做不到,小地圖是為了彌補這個能力缺陷,並非作弊限制Escape Rope / Dig: Gemini 只有在低血量且沒有治療道具時才能使用「穿洞繩」或「挖洞」。這是因為LLM 還不太擅長判斷自己是真卡關了,還是暫時迷路。這個限制強制Gemini 更多依賴地圖記憶和路徑規劃**,能更清晰地展示其推理過程,避免一遇到困難就“抄近道”特色“智能體”除了核心的Gemini 模型,系統還引進了兩個專門的LLM 智能體:路徑規劃智能體(Pathfinder Agent): 如前所述,負責複雜區域(如火箭隊基地的旋轉地板迷宮)和一般場景的尋路推箱子策略師(Boulder Puzzle Strategist, BPS): 專門為「冠軍之路」的推箱子謎題設計。它能模擬推箱子的序列,找出有效的解法,提高了Gemini 應對這類挑戰的可靠性記憶體管理為了控制輸入給模型的Token 數量,系統大約每100 次操作就會對訊息進行一次總結,用總結替換掉原始訊息。未來計畫(暫定)Joel Z 的想法還包括:改進記憶體管理機制讓Gemini 能記筆記,記錄重要資訊給Gemini 更豐富的遊戲狀態資訊(進行中)探索讓觀眾在不劇透的前提下與Gemini 互動的方式等框架穩定後,進行一次完全無干預的通關嘗試嘗試用其他LLM(如Claude 或o3)進行對比實驗 (AI寒武紀)